iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 4
0
Google Developers Machine Learning

我是高中生,我學ML和NLP系列 第 4

【Day 04】神經網路之應用:構音矯正APP

  • 分享至 

  • xImage
  •  

今天要延續昨天專題的內容,一樣是來自台科大的學長,開始感覺到未來訓練模型的步驟了XD


基於神經網路之構音矯正APP

此APP能夠讓使用者唸出特定文字後,便會告訴你有哪些構音需要矯正。

流程圖

https://ithelp.ithome.com.tw/upload/images/20190917/20103852ysVb99aSdY.png

資料搜集

進行語音矯正與辨識需要大量蒐集資料,目前找了 46 位發音正常的人來模擬 15 種構音錯誤及正確構音錄製音檔,而發音正確與錯誤比例大約1:3.3累積資料量總共 7.75 小時

(光是要把資料庫建立起來就是個困難點,而且要把整個流程都想好才可以下手,感覺很辛苦QwQ

資料擴增

使資料更多元、防止過度擬合,我們將數據增強、所有音檔分別進行音調位移 (pitch shift)1,2,-1,-2 。讓資料量擴增五倍,資料量總共 38.75 小時。

做這個擴增的原因除了可以讓資料量變得更多之外,可以把一些不想在training的時候便是錯誤的變因加進去,讓辨識能力增加。除了pitch shift以外還可以加上一些白噪音確保訓練出來的模型可以過濾無意義的資料。

前處理

(一)、音量標準化

  • 為了使音檔音量一致,我們將音量標準化至-0.1db。

(二)、去雜音

  • 為減少雜訊的干擾,我們將音檔進行簡易降造處理,可將音檔中恆定的電磁雜音或是環境噪音濾除。

這感覺和資料擴增相反,把一些模型中不需要辨識的資訊在丟進去模型train之前就去除掉不必要辨識的變因,可以讓模型更有效率。

Early Stopping

https://ithelp.ithome.com.tw/upload/images/20190917/201038529ZeV1U1Me6.png

(當我寫到一半想要找資料時看到了這個寫的完整很多OuO


他們在訓練模型的時候用到了三種不同的方法:

  1. vgg
  2. lenet
  3. cldnn

這三個方法我之後會再詳細說明。


上一篇
【Day 03】什麼是AI?
下一篇
【Day 05】RNN學習筆記 Part I
系列文
我是高中生,我學ML和NLP20
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言